Model Selection

Convolutional Vision Transformer

# Convolutional Vision Transformer

CvT-21 is an image classification model based on the Convolutional Vision Transformer architecture, pretrained on the ImageNet-1k dataset at a resolution of 384x384.

Image Classification

CvT-13 is a vision transformer model pre-trained on the ImageNet-1k dataset, improving the performance of traditional vision transformers by introducing convolutional operations.

Image Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase